首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ApacheHudi

    生态 | Apache Hudi集成Apache Zeppelin

    简介 Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。 方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown 3.常见问题整理 3.1 Hudi包适配 cp hudi-hadoop-mr-bundle-0.5.2-SNAPSHOT.jar zeppelin/lib cp hudi-hive-bundle- 启动时会默认加载lib下的包,对于Hudi这类外部依赖,适合直接放在zeppelin/lib下以避免 Hive或Spark SQL在集群上找不到对应Hudi依赖。 Hudi增量视图 对于Hudi增量视图,目前只支持通过写Spark 代码的形式拉取。

    2.5K30发布于 2021-04-13
  • 来自专栏ApacheHudi

    Apache Kudu 迁移到 Apache Hudi

    Apache Kudu 介绍 Kudu和Impala都是Cloudera贡献给Apache基金会的顶级项目。 Apache Hudi 介绍 Apache Hudi (发音为“hoodie”, 全称是:Hadoop Update Delete Incremental,以下简称为Hudi) ,作为新一代流式数据湖平台 Hudi充分利用了开源的列存储 (Parquet) 和行存储 (Avro) 的文件作为数据的存储格式,并在数据写入时生成索引,以提高查询的性能,具体请参考:https://hudi.apache.org 执行错误:org.apache.hudi.exception.HoodieException: (Part -) field not found in record. 开放性:社区开源组件 参考文档: https://hudi.apache.org/docs/indexing https://kudu.apache.org/docs/security.html https

    2.8K20编辑于 2022-12-09
  • 来自专栏ApacheHudi

    Apache Hudi PMC畅谈Hudi未来演进之路

    大纲: 1.Hudi简介2.表元数据3.缓存4.社区 上图展示了大部分用户使用Hudi的场景。 同时用Hudi提供的库可以搭建增量ETL管道,写入衍生表中。Hudi促进形成了一套生态系统,包含众多管理数据的功能,可以有效地分离高度优化的数据层和其上面搭建的查询层。 Hudi - 先行者 成立于2016年,Hudi项目是在数据湖上建立事务层系统的原创者。最初的设计是一个支持多引擎、与计算分离的存储系统。 很多Hudi贡献者的开发贡献了各种各样的很棒的功能。 这里的介绍的核心点是,Hudi是一个平台。接下来的几个页面会快速过一下。 Hudi已广泛地被众多企业采用。

    77340发布于 2021-11-15
  • 来自专栏ApacheHudi

    Apache Doris + Apache Hudi 快速搭建指南

    Apache Doris + Apache Hudi Apache Hudi 是目前最主流的开放数据湖格式之一,也是事务性的数据湖管理平台,支持包括 Apache Doris 在内的多种主流查询引擎。 Apache Doris 同样对 Apache Hudi 数据表的读取能力进行了增强: Copy on Write Table:Snapshot Query Merge on Read Table:Snapshot Hudi 的实时数据管理能力,可以实现高效、灵活、低成本的数据查询和分析,同时也提供了强大的数据回溯、审计和增量处理功能,当前基于 Apache Doris 和 Apache Hudi 的组合已经在多个社区用户的真实业务场景中得到验证和推广 本文将在 Docker 环境下,为读者介绍如何快速搭建 Apache Doris + Apache Hudi 的测试及演示环境,并对各功能操作进行演示,帮助读者快速入门。 Doris 与 Apache Hudi 快速搭建测试 / 演示环境的详细指南,后续我们还将陆续推出 Apache Doris 与各类主流数据湖格式及存储系统构建湖仓一体架构的系列指南,欢迎持续关注。

    75110编辑于 2024-07-16
  • 来自专栏ApacheHudi

    Apache Hudi Rollback实现分析

    介绍 在发现有些commit出错时,可使用Hudi提供的rollback回滚至指定的commit,这样可防止出现错误的结果,并且当一次commit失败时,也会进行rollback操作,保证一次commit

    1.5K10发布于 2021-04-13
  • 来自专栏ApacheHudi

    Apache Hudi Savepoint实现分析

    介绍 Hudi提供了savepoint机制,即可对instant进行备份,当后续出现提交错误时,便可rollback至指定savepoint,这对于线上系统至为重要,而savepoint由hudi-CLI 总结 Hudi提供了savepoint机制可对某一instant进行备份,然后可通过rollback回滚至指定的savepoint,但值得注意的是回滚只能从大的savepoint开始回滚,即存在多个savepoint

    1.7K20发布于 2021-04-13
  • 来自专栏ApacheHudi

    Apache Hudi Timeline Server介绍

    介绍 Hudi 不依赖任何外部第三方服务(如 Zookeeper),因此易于操作。一切都是独立的,并且不存在必须长期运行的服务器组件。 因此 Hudi 有一个中央时间线服务器,它与 Driver 程序节点中的主线程一起运行,以协助定期写入和表服务。本文介绍时间线服务器的内容、它解决什么问题以及它如何使一些核心 Hudi 操作受益。 动机 如简介中所示,Hudi 有一个中央时间线服务器,在驱动程序节点中运行并作为 Rest 服务。它有多种好处,第一个用例是提供 FileSystemView api。 基于元数据的 FS 视图 Hudi为每个数据表都有一个元数据表,用于缓存表中的文件列表。如果启用的话,FSview 也可以从元数据表构建。 结论 通常操作 Hudi 不需要任何像 Zookeeper 这样需要单独维护的集中运行服务器。

    71620编辑于 2023-09-04
  • 来自专栏大数据技术架构

    Hudi原理 | Apache Hudi 典型应用场景介绍

    对于RDBMS摄取,Hudi通过Upserts提供了更快的负载,而非昂贵且低效的批量负载。 对于所有数据源,Hudi都提供了通过提交将新数据原子化地发布给消费者,从而避免部分提取失败。 2. 通过将数据的更新时间缩短至几分钟,Hudi提供了一种高效的替代方案,并且还可以对存储在DFS上多个更大的表进行实时分析。 Hudi可以很好的解决上述问题,其通过记录粒度(而非文件夹或分区)来消费上游Hudi表 HU中的新数据,下游的Hudi表 HD应用处理逻辑并更新/协调延迟数据,这里 HU和 HD可以以更频繁的时间(例如 Hudi可以通过以下方式再次有效地解决此问题:将Spark Pipeline 插入更新输出到Hudi表,然后对表进行增量读取(就像Kafka主题一样)以获取新数据并写入服务存储中,即使用Hudi统一存储

    2.9K60发布于 2020-05-25
  • 来自专栏ApacheHudi

    Apache Hudi 0.15.0 版本发布

    /artifact/org.apache.hudi/hudi-utilities-bundle_2.13](https://mvnrepository.com/artifact/org.apache.hudi /org.apache.hudi/hudi-utilities-slim-bundle_2.13](https://mvnrepository.com/artifact/org.apache.hudi/ : [https://hudi.apache.org/docs/configurations#hoodiecleanallowmultiple](https://hudi.apache.org/docs /HUDI-7486](https://issues.apache.org/jira/browse/HUDI-7486) [14] HUDI-7429: [https://issues.apache.org /jira/browse/HUDI-7429](https://issues.apache.org/jira/browse/HUDI-7429) [15] HUDI-7362: [https://issues.apache.org

    1.5K10编辑于 2024-07-04
  • 来自专栏大数据-BigData

    Apache Hudi 0.9.0 版本发布

    下载信息 源码地址: Apache Hudi 源码 版本相关jar包: here 版本迁移指南 如果从旧版本进行迁移,还请检查下面每个后续版本的升级说明 在0.9.0中,Hudi添加了更多的表属性 ,以帮助在现有的Hudi表使用spark-sql。 版本亮点 Spark SQL DDL/DML支持 Apache Hudi 0.9.0实验性地支持使用Spark SQL进行DDL/DML操作,朝着让所有用户(非工程师、分析师等)更容易访问和操作Hudi org.apache.hudi.client.validator.SqlQueryEqualityPreCommitValidator[8]可用于验证提交前后行的数据行相同 org.apache.hudi.client.validator.SqlQueryInequalityPreCommitValidator [9]可用于验证提交前后的数据行不相同 org.apache.hudi.client.validator.SqlQuerySingleResultPreCommitValidator[10]可用于验证表是否产生特定值这些可以通过设置

    1.8K20编辑于 2022-01-19
  • 来自专栏IT技术分享社区

    Apache Hudi 入门学习总结

    前言 学习和使用Hudi近一年了,由于之前忙于工作和学习,没时间总结,现在从头开始总结一下,先从入门开始 Hudi 概念 Apache Hudi 是一个支持插入、更新、删除的增量数据湖处理框架,有两种表类型 Hudi 学习 Hudi 官网 https://hudi.apache.org/cn/docs/0.9.0/overview/(因本人最开始学习时Hudi的版本为0.9.0版本,所以这里列的也是0.9.0 import org.apache.hudi.DataSourceWriteOptions._ import org.apache.hudi.config.HoodieWriteConfig import org.apache.hudi.config.HoodieWriteConfig.TBL_NAME import org.apache.hudi.hive.MultiPartKeysValueExtractor import org.apache.hudi.keygen.ComplexKeyGenerator import org.apache.spark.sql.SaveMode.

    1.9K30编辑于 2022-10-31
  • 来自专栏大数据技术架构

    Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

    离线存储是我们 HopsFS 文件系统上的 Apache Hudi 表(由 S3 或 Azure Blob 存储支持)和外部表(例如 Snowflake、Redshift 等),提供对大量特征数据的访问以用于训练或批量评分 RonDB 还存储了文件系统 HopsFS 的元数据,其中存储了离线 Hudi 表,具体实践可参考 如何将Apache Hudi应用于机器学习。 使用 RonDB 作为单个元数据数据库,我们使用事务和外键来保持 Feature Store 和 Hudi 元数据与目标文件和目录(inode)一致。

    1.6K10发布于 2021-07-05
  • 来自专栏暴走大数据

    Apache Hudi压缩Compaction源码解析

    一、基础概念 了解过hudi的新手或者专家都知道,hudi不管是COW还是MOR表,其文件还是存储在hdfs上。因为下来介绍我在学习hudi压缩的一些东西,所以下方就以MOR表文件做下介绍。 而后面time_15min则表示hudi表各个分区目录,当前是以系统时间,每15分钟一个分区。 接下来以一个分区为例子: 上方的是log文件,下方是parquet文件。 hudi自己提供了很多压缩的配置来应对使用者的需求,包括指定不同的压缩策略,压缩触发条件等等。 二、代码解读 以手动调用compactor生成一个压缩计划的方式为例。 以0.10.0版本来看,这里触发的压缩过程和正常写入hudi是独占的,即同一时间只能进行写入或压缩。 fileWriter.writeAvroWithMetadata(recordWithMetadataInSchema, record); 这个就是把参数里的recordWithMetadataInSchema调用org.apache.parquet.hadoop

    2.2K41编辑于 2022-12-05
  • 来自专栏ApacheHudi

    Apache Hudi 1.0.0 版本正式发布

    Apache Hudi 1.0.0 是 Apache Hudi 的一个重要里程碑版本。此版本包含重要的格式更改和令人兴奋的新功能。 迁移指南 我们鼓励用户首先在新表上试用 1.0.0 功能。 新索引 1.0.0 为 Apache Hudi 的多模态索引子系统引入了新的索引。这些索引旨在通过分区修剪和进一步跳过数据来提高查询性能。 引用链接 [1] 迁移指南: https://hudi.apache.org/docs/deployment#upgrading-to-100 [2] 迁移指南: https://hudi.apache.org Hudi 1.0 技术规范: https://hudi.apache.org/tech-specs-1point0 [7] 规范: https://hudi.apache.org/tech-specs- DML: https://hudi.apache.org/docs/sql_dml#merge-into-partial-update [11] Hudi 1.0 技术规范: https://hudi.apache.org

    70910编辑于 2024-12-20
  • 来自专栏ApacheHudi

    详解 Apache Hudi 的记录合并

    Hudi 希望记录严格按照其提交的顺序到达。因此,假定最近的记录(就摄取时间而言)是记录的最新版本。 DROP TABLE hudi_table; SET hoodie.spark.sql.insert.into.operation=upsert; CREATE TABLE hudi_table ( 此处提供了实施的详细信息 - https://hudi.apache.org/docs/record_merger/#custom 记录负载 在 1.0.0 之前,Hudi 使用旧版 Record Payload DROP TABLE hudi_table; SET hoodie.spark.sql.insert.into.operation=upsert; CREATE TABLE hudi_table ( TBLPROPERTIES (primaryKey ='uuid',preCombineField ='ts', hoodie.datasource.write.payload.class='org.apache.hudi.common.model.DefaultHoodieRecordPayload

    52810编辑于 2025-03-24
  • 来自专栏ApacheHudi

    探索 Apache Hudi 全新 LSM Timeline

    Apache Hudi 1.0 引入了新的 LSM 时间线,以扩展长期表的元数据管理。通过将时间线存储重构为紧凑的版本化树布局,Hudi 实现了更快的元数据访问、快照隔离和对非阻塞并发控制的支持。 Apache Hudi 的时间轴 Apache Hudi 架构的核心是 Timeline[1] - 一个日志结构的系统,在任何时间点充当表状态的单一事实来源。 正是这种限制为 Hudi 1.0 中引入的 LSM Timeline 创新奠定了基础。 为什么要迁移到 LSM时间线? Apache Hudi 的原始时间线设计适用于许多工作负载。 LSM时间线优势 LSM 时间线在 Apache Hudi 处理元数据的方式方面取得了重大进步,提供了性能改进和新功能。 语义:https://hudi.apache.org/docs/timeline#truetime-generation

    37700编辑于 2025-06-09
  • 来自专栏ApacheHudi

    沃尔玛基于 Apache Hudi 构建 Lakehouse

    开源数据峰会上最有趣的会议之一是三级数据工程师 Ankur Ranjan 和高级数据工程师 Ayush Bijawat 的演讲,介绍他们在领先零售商沃尔玛中使用 Apache Hudi。 Ankur 和 Ayush 分享了他们从沃尔玛从数据湖到数据 Lakehouse 架构的战略转变的动机和经验,重点关注了 Apache Hudi Lakehouse 格式在实现这一变化中的重要性。 了解 Apache Hudi 随着这种自然的演变,Ankur 和 Ayush 旅程的下一步是为沃尔玛选择正确的数据Lakehouse架构。 虽然主流使用三种开放表格式(Apache HudiApache Iceberg 和 Delta Lake),但沃尔玛选择使用 Apache Hudi 有两个关键原因: 1. 在组织中启用 Apache Hudi 鉴于 Ankur 提供的 Apache Hudi 的工作直觉,Ayush 深入研究了 Apache Hudi 在组织中的实际启用,解决了他经常遇到的一个问题:“在我的数据湖架构中启用

    35910编辑于 2024-03-18
  • 来自专栏ApacheHudi

    Apache Hudi + Flink作业运行指南

    近日Apache Hudi社区合并了Flink引擎的基础实现(HUDI-1327),这意味着 Hudi 开始支持 Flink 引擎。 git clone https://github.com/apache/hudi.git && cd hudimvn clean package -DskipTests Windows 系统用户打包时会报如下错误 表基本路径•--target-table :Hudi 表名•--table-type :Hudi 表类型•--props : 任务配置 其他参数可以参考 org.apache.hudi.HoodieFlinkStreamer.Config hoodie.deltastreamer.keygen.timebased.output.dateformat=yyyy/MM/dd hoodie.datasource.write.keygenerator.class=org.apache.hudi.keygen.TimestampBasedAvroKeyGenerator 启动任务 /opt/flink-1.11.2/bin/flink run -c org.apache.hudi.HoodieFlinkStreamer -m yarn-cluster -d -yjm 1024

    3.6K20发布于 2021-04-13
  • 来自专栏大数据-BigData

    改进Apache Hudi的标记机制

    Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。 写操作期间需要标记 Hudi中的marker,比如文件名唯一的marker文件,是一个标签,表示存储中存在对应的数据文件,然后Hudi在故障和回滚场景中自动清理未提交的数据。 Hudi 在文件系统中创建相应的数据文件之前创建一个标记,并在成功时删除与提交有关的所有标记。 标记对于有效地执行写客户端的不同操作很有用。 标记用作跟踪感兴趣的数据文件的一种方式,而不是通过列出表中的所有文件来扫描整个 Hudi 表。 原文链接:https://lrting.top/backend/bigdata/hudi/hudi-basic/5619/

    1.1K30编辑于 2022-05-26
  • 来自专栏大数据-BigData

    Apache Hudi 0.12.2发布

    async compaction is not thread safe when use watermark [HUDI-4281] – Using hudi to build a metric register confict error [HUDI-5057] – Fix msck repair hudi table [HUDI-5058] – of InLineFileSystem [HUDI-5157] – Duplicate partition path for chained hudi tables. instant only [HUDI-4995] – Dependency conflicts on apache http with other projects [HUDI-4997 [HUDI-5081] – Resources clean-up in hudi-utilities tests [HUDI-5221] – Make the decision

    97630编辑于 2023-01-12
领券